【疑问】经典哈希算法里的seed能换成别的数字吗

最新推荐文章于 2022-03-12 12:33:06 发布

linlinhust

最新推荐文章于 2022-03-12 12:33:06 发布

阅读量4.4k

点赞数 1

本文链接：https://blog.csdn.net/linlinhust/article/details/9049367

版权

请教一个哈希算法的问题：BKDRHash的seed是为什么是31、131、1313、13131、131313...，别的数字不行吗？

算法如下：
template<class T>
size_t BKDRHash(const T *str)
{
register size_t hash = 0;
while (size_t ch = (size_t)*str++)
{
//也可以乘以31、131、1313、13131、131313...
hash = hash * 131 + ch;
}
return hash;
}
参考文章《字符串Hash函数对比》http://blog.csdn.net/icefireelf/article/details/5796529

类似地，RSHash的63689、378551是如何而来，能否替换为其他数字？
63689、378551都是质数，而BKDRHash中的除了31、131是质数外，1313、13131、131313都是合数(查质数表)

/// @brief RS Hash Function
/// @detail 因Robert Sedgwicks在其《Algorithms in C》一书中展示而得名。
template<class T>
size_t RSHash(const T *str)
{
register size_t hash = 0;
size_t magic = 63689;
while (size_t ch = (size_t)*str++)
{
hash = hash * magic + ch;
magic *= 378551;
}
return hash;
}

其实我问这个问题是为了应用BloomFilter，这个算法需要k个不同的哈希函数，“选择k个不同的哈希函数比较麻烦，一种简单的方法是选择一个哈希函数，然后送入k个不同的参数。”我想知道的是，把RSHash的63689和378551修改为另外两个大素数，是否会导致散列分布没有原算法均匀。

参考文章《BloomFilter——大规模数据处理利器》
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。

我想知道的是，把RSHash的63689和378551修改为另外两个大素数，是否会导致散列分布没有原算法均匀